Indexation de Documents Manuscrits
نویسنده
چکیده
paru dans Proceedings du Colloque International Francophone sur l'Ecrit et le Document (CIFED06), article invité a [email protected] b Ecole Polytechnique Fédérale de Lausanne (EPFL)-1015 Lausanne (Switzerland) paru dans Proceedings du Colloque International Francophone sur l'Ecrit et le Document (CIFED06), article invité Résumé. Les systèmes de reconnaissance automatique de l'´ ecriture permettent de transfomer des collections de documents manuscrits en archives de documents numériques. L'avantage n'est pas tellement la réduction de l'espace nécéssaire pour stoquer les données, mais plutôt la possi-bilité d'appliquer les technologies de gestion du contenu normalement utilisées pour des textes numériques tels que pages web et e-mails. Leprobì eme principal dans une telle démarche est que les transcriptions sont généralement bruitées, c'est-` a-dire qu'elles sont caracterisées par un taux d'erreur qui peut atteindre, dépendemment des cas, les 50 pour cent. Cet article montre que cela ne constitue pas unprobì eme majeur dans deux cas importants: Information Retrieval et Text Categorization. Une comparaison des résultats obtenus avec les mêmes technologies d'indexation sur les transcriptions manuelles (sans erreur) et automatiques (environ 40% de Term Error Rate) des mêmes documents montre en effet que l'impact sur la performance de l'application finale est négligeable.
منابع مشابه
Extraction automatique de champs numériques dans des documents manuscrits
Résumé. Nous décrivons dans cet article une chaine de traitement complète et générique permettant d’extraire automatiquement les champs numériques (numéros de téléphone, codes clients, codes postaux) dans des documents manuscrits libres. Notre chaïne de traitement est constituée des trois étapes suivantes: localisation des champs numériques potentiels selon une approche markovienne sans reconna...
متن کاملUn modèle de bibliothèque numérique collaborative - ARMARIUS
RÉSUMÉ. Les manuscrits anciens numérisés représentent un contenu spécifique pour les bibliothèques numériques. Les utilisateurs travaillant sur ce type de documents ont besoin de systèmes d’assistance et d’espaces de travail collectif pour interpréter, annoter et transcrire ces manuscrits. Dans cet article, nous présenterons un modèle de bibliothèque numérique spécialement conçu pour des manusc...
متن کاملUne nouvelle approche pour indexer les documents manuscrits anciens Une nouvelle approche pour indexer les documents manuscrits anciens
Résumé : Dans cet article nous présentons une architecture pour la description et la recherche de documents manuscrits anciens. Nous utilisons une décomposition en Curvelets des images pour indexer les fragments linéaires de l’écriture. Appartenant à la famille des ondelettes, cette transformée nous permet d’avoir plusieurs niveaux de détails. Le schéma général consiste à analyser les orientati...
متن کاملApprentissage supervisé pour la catégorisation de documents manuscrits en-ligne
RÉSUMÉ. Cet article s’intéresse à la problématique de la catégorisation automatique de documents manuscrits en-ligne et plus particulièrement à l’impact de la reconnaissance de l’écriture dans un processus de catégorisation utilisant des méthodes d’apprentissage automatique. Nous comparons les performances obtenues avec des documents issus d’un système de reconnaissance de l’écriture en-ligne e...
متن کاملUne nouvelle approche pour indexer les documents manuscrits anciens
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...
متن کامل